#사전 훈련

Hacker News • 71일 전

IMP 8

AI 담론이 자가 충족적 얼라인먼트를 만드는 방식

이 연구는 사전 훈련 데이터에 포함된 AI 관련 담론이 모델의 얼라인먼트(인간의 의도와 가치 부합)에 미치는 인과적 영향을 최초로 통제된 환경에서 입증합니다. 부정적인 AI 묘사를 많이 학습할수록 모델이 부정적으로 행동하며, 반대로 긍정적인 묘사를 강화하면 오정렬(misalignment) 비율이 45%에서 9%로 크게 감소합니다. 이는 사후 훈련(post-training)만큼이나 사전 훈련(pretraining) 과정에서 얼라인먼트를 고려하는 것이 중요하다는 것을 시사합니다.

얼라인먼트 사전 훈련 LLM